In this work, we focus on instance-level open vocabulary segmentation, intending to expand a segmenter for instance-wise novel categories without mask annotations. We investigate a simple yet effective framework with the help of image captions, focusing on exploiting thousands of object nouns in captions to discover instances of novel classes. Rather than adopting pretrained caption models or using massive caption datasets with complex pipelines, we propose an end-to-end solution from two aspects: caption grounding and caption generation. In particular, we devise a joint Caption Grounding and Generation (CGG) framework based on a Mask Transformer baseline. The framework has a novel grounding loss that performs explicit and implicit multi-modal feature alignments. We further design a lightweight caption generation head to allow for additional caption supervision. We find that grounding and generation complement each other, significantly enhancing the segmentation performance for novel categories. We conduct extensive experiments on the COCO dataset with two settings: Open Vocabulary Instance Segmentation (OVIS) and Open Set Panoptic Segmentation (OSPS). The results demonstrate the superiority of our CGG framework over previous OVIS methods, achieving a large improvement of 6.8% mAP on novel classes without extra caption data. Our method also achieves over 15% PQ improvements for novel classes on the OSPS benchmark under various settings.
translated by 谷歌翻译
参考图像分割(RIS)旨在通过输出给定文本描述的相应对象掩码连接图像和语言,这是一项基本的视觉语言任务。尽管RIS取得了很多进展,但在这项工作中,我们还是探索了一个基本问题:“如果描述是错误的或文本描述的误导怎么办?”。我们将这样的句子称为否定句子。但是,我们发现现有作品无法处理此类设置。为此,我们提出了一种新颖的RIS,称为Robust Robust Toemustring图像分割(R-RIS)。除了定期给出的文本输入外,它还考虑了否定句子输入。我们通过增加输入负面句子和一个新的指标来统一两种输入类型,提出三个不同的数据集。此外,我们设计了一个名为RefSegformer的新的基于变压器的模型,在其中引入了基于令牌的视觉和语言融合模块。通过添加额外的空白令牌,可以轻松地将此类模块扩展到我们的R-RIS设置。我们提出的RefSegormer在三个常规RIS数据集和三个R-RIS数据集上实现了新的最新结果,这是用于进一步研究的新基线。项目页面位于\ url {https://lxtgh.github.io/project/robust_ref_seg/}。
translated by 谷歌翻译
高分辨率卫星图像可以为土地覆盖分类提供丰富的详细空间信息,这对于研究复杂的建筑环境尤为重要。但是,由于覆盖范围复杂的覆盖模式,昂贵的训练样品收集以及卫星图像的严重分布变化,很少有研究应用高分辨率图像来大规模详细类别的覆盖地图。为了填补这一空白,我们提出了一个大规模的土地盖数据集,即五亿像素。它包含超过50亿个标记的像素,这些像素由150个高分辨率Gaofen-2(4 M)卫星图像,在24类系统中注释,涵盖人工结构,农业和自然阶层。此外,我们提出了一种基于深度学习的无监督域适应方法,该方法可以转移在标记的数据集(称为源域)上训练的分类模型,以获取大型土地覆盖映射的无标记数据(称为目标域) 。具体而言,我们采用动态伪标签分配和班级平衡策略来介绍一个端到端的暹罗网络,以执行自适应领域联合学习。为了验证我们的数据集的普遍性以及在不同的传感器和不同地理区域中提出的方法,我们对中国的五个大城市和其他五个亚洲国家的五个城市进行了土地覆盖地图,以下情况下使用:Planetscope(3 m),Gaofen-1,Gaofen-1 (8 m)和Sentinel-2(10 m)卫星图像。在总研究区域为60,000平方公里,即使输入图像完全未标记,实验也显示出令人鼓舞的结果。拟议的方法接受了5亿像素数据集的培训,可实现在整个中国和其他亚洲国家的高质量和详细的土地覆盖地图。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
Context-aware decision support in the operating room can foster surgical safety and efficiency by leveraging real-time feedback from surgical workflow analysis. Most existing works recognize surgical activities at a coarse-grained level, such as phases, steps or events, leaving out fine-grained interaction details about the surgical activity; yet those are needed for more helpful AI assistance in the operating room. Recognizing surgical actions as triplets of <instrument, verb, target> combination delivers comprehensive details about the activities taking place in surgical videos. This paper presents CholecTriplet2021: an endoscopic vision challenge organized at MICCAI 2021 for the recognition of surgical action triplets in laparoscopic videos. The challenge granted private access to the large-scale CholecT50 dataset, which is annotated with action triplet information. In this paper, we present the challenge setup and assessment of the state-of-the-art deep learning methods proposed by the participants during the challenge. A total of 4 baseline methods from the challenge organizers and 19 new deep learning algorithms by competing teams are presented to recognize surgical action triplets directly from surgical videos, achieving mean average precision (mAP) ranging from 4.2% to 38.1%. This study also analyzes the significance of the results obtained by the presented approaches, performs a thorough methodological comparison between them, in-depth result analysis, and proposes a novel ensemble method for enhanced recognition. Our analysis shows that surgical workflow analysis is not yet solved, and also highlights interesting directions for future research on fine-grained surgical activity recognition which is of utmost importance for the development of AI in surgery.
translated by 谷歌翻译
Molecular conformation generation aims to generate three-dimensional coordinates of all the atoms in a molecule and is an important task in bioinformatics and pharmacology. Previous methods usually first predict the interatomic distances, the gradients of interatomic distances or the local structures (e.g., torsion angles) of a molecule, and then reconstruct its 3D conformation. How to directly generate the conformation without the above intermediate values is not fully explored. In this work, we propose a method that directly predicts the coordinates of atoms: (1) the loss function is invariant to roto-translation of coordinates and permutation of symmetric atoms; (2) the newly proposed model adaptively aggregates the bond and atom information and iteratively refines the coordinates of the generated conformation. Our method achieves the best results on GEOM-QM9 and GEOM-Drugs datasets. Further analysis shows that our generated conformations have closer properties (e.g., HOMO-LUMO gap) with the groundtruth conformations. In addition, our method improves molecular docking by providing better initial conformations. All the results demonstrate the effectiveness of our method and the great potential of the direct approach. The code is released at https://github.com/DirectMolecularConfGen/DMCG
translated by 谷歌翻译
最近的工作表明,在Covid-19筛选中使用音频数据的可能性。然而,对监测疾病进展进行了很少的探索,特别是通过音频在Covid-19中恢复。跟踪疾病进展特征和复苏模式可能导致巨大的见解和更及时的治疗或治疗调整,以及在医疗保健系统中更好的资源管理。本研究的主要目的是利用顺序深度学习技术探讨Covid-19监测的纵向音频动力学的潜力,专注于疾病进展预测,特别是恢复趋势预测。我们分析了5天至385天的212个个体中众包呼吸系统数据,以及其自我报告的Covid-19测试结果。我们首先探讨捕获音频生物标志物的纵向动态的好处,用于Covid-19检测。强化性能,产生0.79的AUC-ROC,灵敏度为0.75,特异性为0.70,与不利用纵向动态的方法相比,该方法的有效性。我们进一步检查了预测的疾病进展轨迹,其显示出高一致性与纵向试验结果,测试队列中的0.76中的相关性,测试队列的子集中为0.86,其中12名参与者报告疾病恢复。我们的研究结果表明,通过纵向音频数据监测Covid-19进展在追踪个人疾病进展和恢复方面具有巨大潜力。
translated by 谷歌翻译
随着AIT的发展,网络物理系统(CPS)的数据驱动攻击检测方法吸引了很多关注。但是,现有方法通常采用近似数据分布的近似数据分布,这些方法不适合复杂系统。此外,不同渠道中的数据的相关性不会引起足够的注意力。为了解决这些问题,我们使用基于能量的生成模型,这对数据分布的功能形式不太限制。此外,图形神经网络用于明确地模拟不同信道中的数据的相关性。最终,我们提出了TFDPM,是CPS中攻击检测任务的一般框架。它同时提取给定历史数据的时间模式和特征模式。然后将提取特征发送到条件扩散概率模型。可以利用条件生成网络获得预测值,并且基于预测值与观察值之间的差异来检测攻击。另外,为了实现实时检测,提出了一种条件噪声调度网络以加速预测过程。实验结果表明,TFDPM优于现有的最先进的攻击检测方法。噪声调度网络将检测速度增加三次。
translated by 谷歌翻译
生物关键是一种信号,可以从人体中连续测量,例如呼吸声,心脏活动(ECG),脑波(EEG)等,基于该信号,机器学习模型已经为自动疾病的非常有前途的性能开发检测和健康状态监测。但是,DataSet Shift,即,推理的数据分布因训练的分布而异,对于真实的基于生物信号的应用程序并不罕见。为了提高稳健性,具有不确定性资格的概率模型适于捕获预测的可靠性。然而,评估估计不确定性的质量仍然是一个挑战。在这项工作中,我们提出了一个框架来评估估计不确定性在捕获不同类型的生物数据集转换时估计的不确定性的能力。特别是,我们使用基于呼吸声和心电图信号的三个分类任务,以基准五个代表性的不确定性资格方法。广泛的实验表明,尽管集合和贝叶斯模型可以在数据集移位下提供相对更好的不确定性估计,但所有测试模型都无法满足可靠的预测和模型校准中的承诺。我们的工作为任何新开发的生物宣布分类器进行了全面评估,为全面评估铺平了道路。
translated by 谷歌翻译
瞄准以像素 - 明智的语义类别描述陆地覆盖,遥感图像中的语义分割需要在广大地理位置上描绘不同的分布,这很难通过现有深层模型的架构中的均匀像素的前导路径难以实现。虽然已经设计了几种算法来选择用于自然图像分析的像素 - 方面的自适应前向路径,但它仍然缺乏关于如何获得最佳选择的理论支持。在本文中,我们在参数优化方面提供数学分析,指导我们设计一种称为隐藏路径选择网络(HPS-Net)的方法。借助从额外的迷你分支派生的隐藏变量,HPS-Net能够通过调整现有算法中的特征映射和像素 - 明智的路径选择之间的直接关系来解决无法访问的全球最佳的固有问题。路径选择。为了更好的培训和评估,我们进一步优化并将5级高芬图像数据集(GID-5)扩展为具有15个土地覆盖类别,即GID-15的新型。 GID-5和GID-15上的实验结果表明,所提出的模块可以稳定地提高不同深结构的性能,验证所提出的数学分析。
translated by 谷歌翻译